#modelos visión

DragOn: Benchmark y dataset para interacciones GUI con arrastre

Mejora el grounding de arrastre en asistentes GUI con DragOn: 3.5M tareas de resalte, selección y más. Benchmark y dataset para entrenar modelos de IA.

2026-06-06 · 2 min

CausalPhys: Evaluación de razonamiento físico causal en modelos de visión-lenguaje

Nuevo benchmark CausalPhys con 3,000 preguntas evalúa razonamiento causal en VLMs. Mejora precisión e interpretabilidad con aprendizaje causal.

2026-06-06 · 2 min

DRIFT: Adaptador de flujo residual para salidas continuas en modelos de lenguaje visual

Descubre cómo DRIFT adapta modelos de visión-lenguaje para generar salidas continuas con precisión, mejorando tareas como grounding visual y control robótico.

2026-06-05 · 2 min

DRIFT: Adaptador de flujo residual para salidas continuas en VLMs

DRIFT adapta modelos VLM para salidas continuas con un adaptador de flujo residual, mejorando precisión en percepción y control robótico.

2026-06-05 · 2 min

LEVANTE-bench: Comparación multiescala de VLMs con niños

Descubre cómo LEVANTE-bench compara modelos de IA con niños de 5 a 12 años en tareas cognitivas. ¿Son los VLMs más inteligentes que un niño de 5º grado?

2026-06-05 · 2 min

EvoPrompt: Evolución Guiada de Prompts para VLMs

EvoPrompt: evolución guiada de prompts para adaptación sin olvido de VLMs en pocos datos. Preserva conocimiento pre-entrenado.

2026-06-04 · 1 min

Codificadores Visuales con Estado para Modelos de Visión-Lenguaje

Codificadores visuales con estado mejoran la comparación entre imágenes en modelos de visión-lenguaje, superando a especialistas en radiología y teledetección.

2026-06-04 · 2 min

Codificadores visuales con estado para modelos visión-lenguaje

Descubre cómo los codificadores visuales con estado mejoran los modelos visión-lenguaje en tareas multi-imagen y superan a modelos en radiología y teledetección

2026-06-04 · 3 min

Diagnóstico espectral de desbalance en modelos visión-lenguaje médico

SAS revela asimetrías en modelos visión-lenguaje médicos, midiendo desequilibrio de modalidad. Útil para diagnóstico práctico en IA clínica.

2026-06-04 · 2 min

KODA: Comparación y alineación de representaciones en modelos visión-lenguaje

KODA compara y alinea representaciones de modelos visión-lenguaje como CLIP y SigLIP usando kernels. Identifica discrepancias estructurales interpretables.

2026-06-04 · 2 min

Destilación Geométrica para Ajuste de Prompts en Modelos Biomédicos

Descubre cómo OGKD mejora la precisión en modelos médicos al respetar relaciones entre clases. Resultados superiores en 11 datasets.

2026-06-04 · 2 min

Más allá de la acumulación de codificadores en VLM

Descubre cómo medir el rol de cada codificador en modelos VLM multicodificador. Capacidad y Necesidad revelan pares óptimos para entrenar sin acumular. Investigación con 16 benchmarks.

2026-06-03 · 2 min

Align-KD: destilando conocimiento de alineación multimodal para VLMs móviles

Descubre Align-KD, técnica que destila conocimiento de alineación multimodal de VLMs grandes a modelos móviles, mejorando precisión en 6 benchmarks.

2026-06-03 · 2 min

BYORn: Genera tus propias respuestas para defender modelos de visión-lenguaje

Descubre BYORn, método que protege modelos visión-lenguaje durante fine-tuning contra ataques backdoor, mejorando robustez.

2026-06-03 · 2 min

PolarMem: Memoria latente polarizada sin entrenamiento para VLMs verificables

PolarMem: sistema de memoria gráfica polarizada sin entrenamiento que verifica y reduce contradicciones en modelos de visión-lenguaje para un razonamiento multimodal confiable.

2026-06-03 · 2 min

StreamingVLM: Comprensión en tiempo real para transmisiones de video infinitas

StreamingVLM revoluciona la comprensión de video en tiempo real: procesa flujos infinitos con solo 8 FPS en un H100, superando a GPT-4O mini. ¡Descubre su arquitectura!

2026-06-02 · 2 min

CARES: Selector de Resolución Consciente del Contexto para VLMs

CARES es un módulo ligero que selecciona la resolución mínima para VLMs, reduciendo el cómputo hasta un 80% sin perder precisión. Optimiza tus modelos.

2026-06-02 · 1 min

Efectos de los distractores en modelos de razonamiento visual-lingüístico

Los distractores visuales afectan a los modelos visión-lenguaje de forma distinta a los textuales: reducen precisión sin alargar el razonamiento. Aprende a mitigarlos.

2026-06-02 · 2 min

DeepLatent: Razonamiento visual latente paralelo con imágenes

DeepLatent: revolucionario marco paralelo de razonamiento visual latente. Usa tokens 2D y RL continuo para alcanzar rendimiento de vanguardia en benchmarks clave.

2026-06-02 · 1 min

Traducción consciente de densidad de correlaciones espurias en VLMs

Descubre cómo DAT corrige correlaciones espurias en VLMs zero-shot usando densidad local para mejorar precisión sin ajuste fino.

2026-06-02 · 1 min